In this paper, we propose a novel multi-modal multi-task encoder-decoder pre-training framework (MMSpeech) for Mandarin automatic speech recognition (ASR), which employs both unlabeled speech and text data. The main difficulty in speech-text joint pre-training comes from the significant difference between speech and text modalities, especially for Mandarin speech and text. Unlike English and other languages with an alphabetic writing system, Mandarin uses an ideographic writing system where character and sound are not tightly mapped to one another. Therefore, we propose to introduce the phoneme modality into pre-training, which can help capture modality-invariant information between Mandarin speech and text. Specifically, we employ a multi-task learning framework including five self-supervised and supervised tasks with speech and text data. For end-to-end pre-training, we introduce self-supervised speech-to-pseudo-codes (S2C) and phoneme-to-text (P2T) tasks utilizing unlabeled speech and text data, where speech-pseudo-codes pairs and phoneme-text pairs are a supplement to the supervised speech-text pairs. To train the encoder to learn better speech representation, we introduce self-supervised masked speech prediction (MSP) and supervised phoneme prediction (PP) tasks to learn to map speech into phonemes. Besides, we directly add the downstream supervised speech-to-text (S2T) task into the pre-training process, which can further improve the pre-training performance and achieve better recognition results even without fine-tuning. Experiments on AISHELL-1 show that our proposed method achieves state-of-the-art performance, with a more than 40% relative improvement compared with other pre-training methods.
translated by 谷歌翻译
As an important data selection schema, active learning emerges as the essential component when iterating an Artificial Intelligence (AI) model. It becomes even more critical given the dominance of deep neural network based models, which are composed of a large number of parameters and data hungry, in application. Despite its indispensable role for developing AI models, research on active learning is not as intensive as other research directions. In this paper, we present a review of active learning through deep active learning approaches from the following perspectives: 1) technical advancements in active learning, 2) applications of active learning in computer vision, 3) industrial systems leveraging or with potential to leverage active learning for data iteration, 4) current limitations and future research directions. We expect this paper to clarify the significance of active learning in a modern AI model manufacturing process and to bring additional research attention to active learning. By addressing data automation challenges and coping with automated machine learning systems, active learning will facilitate democratization of AI technologies by boosting model production at scale.
translated by 谷歌翻译
变压器的扎实结果使它们在各种自然语言和视觉任务中占上风。作为变压器中的默认组件,层归一化(LN)将每个令牌内的激活归一化,以增强稳健性。但是,LN需要在推理以及除法和平方根操作中进行直接统计计算,从而导致硬件效率低下。更重要的是,用其他硬件有效的标准化方案(例如,批发归一化)代替LN会导致性能较低,甚至在训练中崩溃。我们发现,这种困境是由激活统计的异常行为引起的,包括对迭代的大波动和跨层的极端异常值。为了解决这些问题,我们提出了统一的归一化(UN),可以通过与其他线性操作融合并在LN上实现可比性的性能来加快推断。联合国通过量身定制的波动平滑策略校准激活和梯度统计来努力提高性能。同时,采用自适应离群过滤策略来避免在本文中在理论上证明并在实验上验证的训练中崩溃。我们证明,通过对语言和视觉任务进行广泛的实验,联合国可以成为LN的有效替代品。此外,我们评估了我们方法在GPU上的效率。配备了联合国的变压器享受约31%的推理速度和近18%的记忆力减少。代码将在https://github.com/hikvision-research/unified-normalization上发布。
translated by 谷歌翻译
主动学习是自动化机器学习系统的重要技术。与旨在自动化神经网络体系结构设计的神经体系结构搜索(NAS)相反,主动学习旨在自动化培训数据选择。对于训练长尾巴的任务尤其重要,在该任务中,在该任务中,稀疏的样品分布稀疏。主动学习通过逐步培训模型,以有效的数据选择来减轻昂贵的数据注释问题。它没有注释所有未标记的样本,而是迭代选择并注释最有价值的样本。主动学习在图像分类中很受欢迎,但在对象检测中尚未得到充分探索。当前的大多数对象检测方法都通过不同的设置进行评估,因此很难公平地比较其性能。为了促进该领域的研究,本文贡献了一个活跃的学习基准框架,称为Albench,用于评估对象检测中的主动学习。该Albench框架在自动深层模型训练系统上开发,易于使用,与不同的主动学习算法兼容,并确保使用相同的培训和测试协议。我们希望这种自动化的基准系统能够帮助研究人员轻松复制文学的表现,并与先前的艺术进行客观的比较。该代码将通过GitHub发布。
translated by 谷歌翻译
最近,由于其广泛的商业价值,从视觉丰富的文档(例如门票和简历)中自动提取信息已成为一个热门而重要的研究主题。大多数现有方法将此任务分为两个小节:用于从原始文档图像中获取纯文本的文本阅读部分以及用于提取密钥内容的信息提取部分。这些方法主要集中于改进第二个方法,同时忽略了这两个部分高度相关。本文提出了一个统一的端到端信息提取框架,从视觉上富含文档中提出,文本阅读和信息提取可以通过精心设计的多模式上下文块相互加强。具体而言,文本阅读部分提供了多模式功能,例如视觉,文本和布局功能。开发了多模式上下文块,以融合生成的多模式特征,甚至是从预训练的语言模型中获得的先验知识,以提供更好的语义表示。信息提取部分负责使用融合上下文功能生成密钥内容。该框架可以以端到端的可训练方式进行培训,从而实现全球优化。更重要的是,我们将视觉丰富的文档定义为跨两个维度的四个类别,即布局和文本类型。对于每个文档类别,我们提供或推荐相应的基准,实验设置和强大的基准,以弥补该研究领域缺乏统一评估标准的问题。报告了对四种基准测试的广泛实验(从固定布局到可变布局,从完整的文本到半未结构化的文本),证明了所提出的方法的有效性。数据,源代码和模型可用。
translated by 谷歌翻译
通用域自适应对象检测(UNIDAOD)比域自适应对象检测(DAOD)更具挑战性,因为源域的标签空间可能与目标的标签空间不相同,并且在通用场景中的对象的比例可能会大大变化(即,类别转移和比例位移)。为此,我们提出了US-DAF,即使用多标签学习的US-DAF,即具有多个标记的rcnn自适应率更快,以减少训练期间的负转移效应,同时最大化可传递性以及在各种规模下两个领域的可区分性。具体而言,我们的方法由两个模块实现:1)我们通过设计滤波器机制模块来克服类别移动引起的负转移来促进普通类的特征对齐,并抑制私人类的干扰。 2)我们通过引入一个新的多标签尺度感知适配器来在对象检测中填充比例感知适应的空白,以在两个域的相应刻度之间执行单个对齐。实验表明,US-DAF在三种情况下(即开放式,部分集和封闭设置)实现最新结果,并在基准数据集clipart1k和水彩方面的相对改善中获得7.1%和5.9%的相对改善。特定。
translated by 谷歌翻译
变形金刚最近在ASR领域主导。尽管能够产生良好的性能,但它们涉及自回归(AR)解码器,以一一生成令牌,这在计算上效率低下。为了加快推断,非自动回旋(NAR)方法,例如设计单步nar,以实现平行生成。但是,由于输出令牌内的独立性假设,单步nar的性能不如AR模型,尤其是在大规模语料库的情况下。改进单步nar面临两个挑战:首先,准确预测输出令牌的数量并提取隐藏的变量;其次,以增强输出令牌之间的相互依赖性建模。为了应对这两个挑战,我们提出了一个被称为Paraformer的快速准确的平行变压器。这利用了连续的基于集成和火的预测器来预测令牌的数量并生成隐藏的变量。然后,浏览语言模型(GLM)采样器会生成语义嵌入,以增强NAR解码器建模上下文相互依存的能力。最后,我们设计了一种策略来生成负面样本,以进行最小单词错误率训练以进一步提高性能。使用公共Aishell-1,Aishell-2基准和工业级别20,000小时任务的实验表明,拟议的Paraformer可以达到与最先进的AR变压器相当的性能,具有超过10倍的加速。
translated by 谷歌翻译
无监督域自适应对象检测的自我训练是一项艰巨的任务,其性能在很大程度上取决于伪盒的质量。尽管结果有令人鼓舞,但先前的工作在很大程度上忽略了自训练期间伪箱的不确定性。在本文中,我们提出了一个简单而有效的框架,称为概率教师(PT),该框架旨在从逐渐发展的教师中捕获未标记的目标数据的不确定性,并以互惠互利的方式指导学生学习学生。具体而言,我们建议利用不确定性引导的一致性训练来促进分类适应和本地化适应,而不是通过精心设计的置信度阈值过滤伪盒。此外,我们与定位适应同时进行锚定适应性,因为锚被视为可学习的参数。与此框架一起,我们还提出了一种新颖的熵局灶性损失(EFL),以进一步促进不确定性引导的自我训练。配备了EFL,PT的表现优于所有以前的基线,并实现了新的最先进。
translated by 谷歌翻译
在本文中,我们在多方会议场景中对说话者的自动语音识别(SA-ASR)进行了比较研究,这一主题越来越关注丰富的转录。具体而言,本研究评估了三种方法。第一种方法,即FD-SOT,由框架级诊断模型组成,以识别说话者和多对话者ASR以识别话语。通过对齐诊断结果和公认的假设,可以获得说话者归因的转录。但是,由于模块化的独立性,这种对齐策略可能会遭受错误的时间戳,从而严重阻碍了模型性能。因此,我们提出了第二种方法WD-SOT,以通过引入单词水平诊断模型来解决对齐误差,从而可以摆脱这种时间戳对齐依赖性。为了进一步缓解对齐问题,我们提出了第三种方法TS-ASR,该方法可以训练目标扬声器分离模块和ASR模块。通过比较每种SA-ASR方法的各种策略,对真实会议场景语料库的实验结果,AlimeTing,表明WD-SOT方法可在平均扬声器依赖性角色错误率(SD-CER)相对降低10.7%,与之相比FD-SOT方法。此外,TS-ASR方法还优于FD-SOT方法,并带来16.5%的相对平均SD-CER减少。
translated by 谷歌翻译
知识图(kg)推论是解决KGs自然不完整性的重要技术。现有的kg推断方法可以分为基于规则的基于和基于kg嵌入的模型。然而,这些方法同时不能平衡准确性,泛化,解释性和效率。此外,这些模型总是依赖于纯粹的三元族并忽略额外信息。因此,KG嵌入(KGE)和规则学习kg推理因稀疏实体和有限的语义而接近面临的面临挑战。我们提出了一种新颖且有效的闭环kg推理框架,与基于这些观察结果类似地运行作为发动机。 EngineKgi将KGE和RULE学习在闭环模式中互相补充,同时利用路径和概念中的语义。 KGE模块利用路径来增强实体之间的语义关联,并介绍解释性规则。通过利用路径作为初始候选规则,在规则学习模块中提出了一种新颖的规则修剪机制,并使用KG Embeddings以及提取更高质量规则的概念。四个真实数据集的实验结果表明,我们的模型在链路预测任务上占外的其他基线,展示了我们模型在KG推理中以闭环机制的关节逻辑和数据驱动方式的效力和优越性。
translated by 谷歌翻译